Python - jieba分词 - 数据分析

1.分词

1.1主要分词函数

jieba.cut(sentence, cut_all, HMM):sentence-需要分词的字符串；cut_all-控制是否采用全模式；HMM-控制是否使用HMM模型；jieba.cut()返回的结构是一个可迭代的 generator。
jieba.cut_for_search(sentence, HMM):sentence-需要分词的字符串；HMM-控制是否使用HMM模型；这种分词方法粒度比较细，成为搜索引擎模式；jieba.cut_for_search()返回的结构是一个可迭代的 generator。
jieba.lcut()以及jieba.lcut_for_search用法和上述一致，最终返回的结构是一个列表list。

1.2示例

import jieba as jb

seg_list = jb.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jb.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jb.cut("他来到了网易杭研大厦")  
print("默认模式: " + "/ ".join(seg_list)) # 默认是精确模式

seg_list = jb.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  
print("搜索引擎模式: " + "/ ".join(seg_list)) # 搜索引擎模式

Python - jieba分词

1.分词

1.1主要分词函数

1.2示例

xiao蜗牛

引用和评论

理解偏倚和方差权衡

Python装饰器：让你的代码优雅又高效的秘密武器

从javascript到python(一):基本环境搭建

MurmurHash Tips（qbit）

关于小红书卡片跳转微信的技术研究报告

python解释器, conda, miniconda, Pycharm之间的关系

你不知道的Requests进阶技巧：用Retry实现完美重试